년 11월 AI 및 로봇 연구 동향
1. 2022년 11월, AI 패러다임의 전환
1.1 역사적 변곡점으로서의 2022년 11월
2022년 11월은 인공지능(AI) 및 로봇 공학 분야에서 역사적 변곡점으로 기록될 만한 시기이다. 이 기간은 단일 기술의 점진적 발전을 넘어, 산업계의 파괴적 혁신과 학계의 근본적 연구 성과가 공명하며 새로운 기술 패러다임의 전환을 가시화한 결정적 순간이었다. 2022년 11월 30일, OpenAI가 공개한 대화형 AI 모델 ChatGPT는 기술 전문가 집단을 넘어 일반 대중에게 생성형 AI의 잠재력을 각인시킨 기폭제가 되었다.1 이는 단순한 제품 출시 이상의 의미를 지니며, AI 기술의 대중적 접근성을 극적으로 높이고 기술 민주화의 서막을 연 사건으로 평가된다.
동시에, 세계 최고 권위의 AI 학술대회인 신경정보처리시스템학회(NeurIPS)와 로봇 학습 컨퍼런스(CoRL)가 개최되어, ChatGPT와 같은 혁신의 기술적 토대를 이루는 심층적인 기초 및 응용 연구들이 대거 발표되었다.4 NeurIPS에서는 대규모 언어 모델(LLM)의 의미 이해 능력이 시각 정보 생성에 미치는 영향을 규명한 연구와 방대한 가상 환경 데이터를 통해 체화 AI(Embodied AI)의 일반화 성능을 획기적으로 개선한 연구가 주목받았다. CoRL에서는 언어 모델을 로봇의 물리적 능력과 결합하거나, 로봇 스스로가 상호작용을 통해 작업의 성공 여부를 평가하는 등, AI가 물리 세계와 상호작용하는 방식에 대한 근본적인 진전이 이루어졌다.
이러한 현상들은 독립적인 사건이 아니라, 서로 긴밀하게 연결된 기술적 흐름의 발현이었다. 대규모 데이터로 사전 훈련된 파운데이션 모델의 발전이 ChatGPT와 같은 강력한 애플리케이션의 등장을 가능하게 했고, 이는 다시 NeurIPS에서 발표된 언어-이미지 생성 모델의 핵심 원리를 대중적으로 입증했다. 또한, 이러한 파운데이션 모델의 능력은 CoRL에서 제시된 바와 같이, 로봇이 복잡한 언어 명령을 이해하고 물리적 세계에서 작업을 수행하는 능력의 기반이 되었다. 즉, 2022년 11월은 파운데이션 모델의 성숙, 체화 지능 연구의 심화, 그리고 대중적 접근성의 폭발이라는 세 가지 축이 강력한 시너지를 내며 상호 가속화되기 시작한 시점이다. 본 보고서는 이 시기에 발생한 산업계의 혁신과 학계의 심층 연구가 어떻게 상호작용하며 AI 및 로봇 공학의 새로운 시대를 열었는지 종합적으로 분석하는 것을 목표로 한다.
1.2 보고서의 구조와 분석의 초점
본 보고서는 2022년 11월의 기술적 성과를 세 가지 주요 축을 중심으로 심층 분석한다. 첫째, 생성형 AI의 대중화를 촉발한 ChatGPT의 등장 배경과 그 기술적 기반을 분석한다. 둘째, AI 기초 연구의 현재와 미래 방향성을 제시한 NeurIPS 2022의 주요 연구, 특히 최우수 논문들의 방법론과 시사점을 상세히 탐구한다. 셋째, AI가 물리 세계와 상호작용하는 로봇 공학 분야의 최신 동향을 CoRL 2022의 수상 논문들을 중심으로 고찰한다.
분석의 초점은 개별 연구의 단순한 요약에 그치지 않는다. 각 연구들 사이에 존재하는 기술적 연결고리, 예를 들어 대규모 언어 모델이 생성 모델과 로봇 제어 양쪽에 미치는 영향, 그리고 대규모 데이터가 체화 AI와 다중모달 모델 학습에 공통적으로 기여하는 방식 등을 규명하는 데 중점을 둔다. 이를 통해 2022년 11월을 기점으로 형성된 거시적 기술 트렌드를 식별하고, 이것이 향후 AI 및 로봇 공학 연구 개발에 미칠 장기적인 영향을 전망하고자 한다.
2. 생성형 AI의 대중화: ChatGPT의 등장과 기술적 배경
2.1 OpenAI의 ChatGPT 공개와 파급 효과
2022년 11월 30일, OpenAI는 대화 형식으로 상호작용하도록 설계된 언어 모델인 ChatGPT를 공개했다.2 이 모델은 공개 단 5일 만에 100만 명, 2개월 만에 1억 명 이상의 사용자를 확보하며 역사상 가장 빠르게 성장한 소비자용 소프트웨어 애플리케이션으로 기록되었다.1 이전의 GPT-3와 같은 모델들이 주로 개발자나 연구자 커뮤니티 내에서 API를 통해 제한적으로 사용되었던 것과 달리, ChatGPT는 직관적인 웹 인터페이스를 통해 누구나 쉽게 접근하고 활용할 수 있도록 제공되었다.
이러한 접근성의 혁신은 AI 기술에 대한 대중의 인식을 근본적으로 바꾸는 계기가 되었다. 복잡한 프롬프트 엔지니어링 없이도 자연스러운 대화를 통해 글을 작성하고, 코드를 생성하며, 지식을 탐색하는 등의 고도화된 작업을 수행할 수 있다는 사실은 전 세계적인 충격을 주었다. 이로 인해 AI 기술은 소수의 전문가를 위한 도구라는 인식을 넘어, 일상과 업무의 생산성을 향상시킬 수 있는 보편적 기술로 자리매김하기 시작했다.
ChatGPT의 등장은 사회-경제적 담론에도 큰 영향을 미쳤다. 예일대학교 예산 연구소의 분석에 따르면, ChatGPT 출시 이후 초기에는 노동 시장에 즉각적인 대규모 혼란이 관찰되지는 않았으나, 특정 직업군, 특히 엔트리 레벨 사무직의 장기적인 변화 가능성에 대한 논의가 촉발되었다.6 또한, AI 모델 훈련에 사용되는 데이터의 저작권 문제, AI가 생성한 콘텐츠의 지적 재산권 귀속 문제 등 법적, 윤리적 쟁점이 수면 위로 부상했다.1 기술 패권 경쟁의 관점에서도 빅테크 기업들의 AI 분야에 대한 막대한 투자가 가속화되는 등, ChatGPT는 기술, 사회, 경제 전반에 걸쳐 광범위한 파급 효과를 낳았다.1
2.2 기술적 기반: GPT-3.5 아키텍처와 RLHF
ChatGPT의 성공은 몇 가지 핵심적인 기술적 기반 위에 구축되었다. 모델의 근간은 2022년 초에 훈련이 완료된 GPT-3.5 시리즈 모델을 미세 조정한 것이다.2 이 모델들의 핵심 아키텍처는 2017년 구글 연구진에 의해 제안된 트랜스포머(Transformer) 구조에 기반한다.8
트랜스포머 아키텍처의 핵심 혁신은 셀프 어텐션(self-attention) 메커니즘이다. 이는 모델이 입력 시퀀스 내의 여러 단어(토큰)들 간의 관계와 중요도를 동적으로 계산하여, 문맥을 보다 정교하게 이해할 수 있도록 한다. ChatGPT는 이 중에서도 ‘decoder-only’ 트랜스포머 구조를 채택했다. 이는 번역 모델처럼 입력을 인코딩하고 출력을 디코딩하는 두 부분으로 나뉘는 대신, 주어진 프롬프트(문맥)를 바탕으로 다음 단어를 순차적으로 예측하며 텍스트를 생성하는 데에만 집중하는 구조이다. 이러한 구조는 대화형 응답 생성과 같은 생성 과업에 특히 효과적이다.8
그러나 아키텍처만으로는 ChatGPT의 정교하고 안전한 대화 능력을 설명하기 어렵다. 여기서 결정적인 역할을 한 기술이 바로 **인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)**이다.2 RLHF는 3단계로 진행된다. 첫째, 지도 학습을 통해 사전 훈련된 언어 모델을 특정 형식의 데이터(주로 인간이 작성한 시연 데이터)로 미세 조정한다. 둘째, 인간 평가자가 모델이 생성한 여러 응답에 대해 선호도 순위를 매긴 데이터를 수집하여, 이를 바탕으로 보상 모델(Reward Model)을 훈련시킨다. 이 보상 모델은 특정 응답이 얼마나 좋은지를 점수화하는 법을 학습한다. 셋째, 이 보상 모델을 강화학습의 보상 함수로 사용하여, 보상 점수를 최대화하는 방향으로 언어 모델의 정책을 최적화한다. 이 과정을 통해 모델은 인간이 선호하는 방식으로, 즉 유용하고, 정직하며, 무해한 방향으로 응답을 생성하도록 학습된다. OpenAI는 이전 GPT-3 및 Codex 모델 배포 경험을 통해 얻은 교훈을 바탕으로 RLHF를 적용하여 유해하거나 사실이 아닌 출력의 생성을 크게 줄일 수 있었다고 밝혔다.2
2.3 기술 스택 분석
ChatGPT와 같은 대규모 생성형 AI 서비스를 안정적으로 개발하고 운영하기 위해서는 모델 자체뿐만 아니라, 이를 뒷받침하는 복잡하고 다층적인 기술 스택이 필수적이다. 이 기술 스택은 크게 인프라, 모델, 그리고 애플리케이션의 세 계층으로 구분할 수 있다.10
인프라 계층 (Infrastructure Layer): 이 계층은 대규모 모델의 훈련과 추론에 필요한 막대한 계산 자원을 제공한다.
-
하드웨어: 모델 훈련의 병렬 처리를 가속화하기 위해 NVIDIA의 GPU가 핵심적인 역할을 하며, 이를 효율적으로 활용하기 위한 병렬 컴퓨팅 플랫폼인 CUDA가 사용된다.8 OpenAI는 모델 훈련을 위해 Microsoft Azure의 AI 슈퍼컴퓨팅 인프라를 활용했다.2
-
클라우드 및 오케스트레이션: 대규모 서버 클러스터를 효율적으로 관리하고 애플리케이션을 배포하기 위해 Kubernetes와 같은 컨테이너 오케스트레이션 도구가 사용된다.11 인프라 구성을 코드로 관리하기 위해
Terraform과 같은 도구도 활용된다.11
모델 계층 (Model Layer): 이 계층은 AI 모델의 개발, 훈련, 최적화를 담당한다.
-
딥러닝 프레임워크: 모델 아키텍처를 구현하고 훈련시키는 데에는 Meta(구 Facebook)가 개발한 오픈소스 머신러닝 라이브러리인 PyTorch가 핵심적으로 사용되었다.8 PyTorch는 유연성과 강력한 GPU 가속 지원으로 연구 및 개발 커뮤니티에서 널리 채택되고 있다.
-
NLP 라이브러리: Hugging Face의 Transformers 라이브러리는 사전 훈련된 트랜스포머 모델을 쉽게 불러와 미세 조정할 수 있는 인터페이스를 제공하여 개발 과정을 크게 단축시킨다.8
애플리케이션 및 운영 계층 (Application & Operations Layer): 이 계층은 최종 사용자에게 서비스를 제공하고 시스템의 안정성과 성능을 모니터링한다.
-
콘텐츠 전송 및 보안: 전 세계 사용자에게 빠르고 안정적인 서비스를 제공하기 위해 Cloudflare와 같은 콘텐츠 전송 네트워크(CDN)가 사용된다.11
-
모니터링 및 로깅: 시스템의 상태를 실시간으로 추적하고 문제를 신속하게 진단하기 위해 Datadog, Grafana, Prometheus와 같은 모니터링 도구와 **Elasticsearch, Logstash, Kibana (ELK 스택)**와 같은 로그 분석 시스템이 활용된다.11
-
협업 및 프로젝트 관리: 대규모 개발팀의 효율적인 협업을 위해 Slack, Jira, Confluence, GitHub 등의 도구가 사용된다.11
이처럼 ChatGPT의 성공은 단일 모델의 성능을 넘어, 대규모 컴퓨팅 인프라, 효율적인 개발 프레임워크, 그리고 안정적인 운영 시스템이 결합된 총체적인 엔지니어링의 결과물이라 할 수 있다.
3. NeurIPS 2022: AI 기초 연구의 최전선
2022년 11월 말부터 12월 초에 걸쳐 개최된 NeurIPS 2022는 AI 분야의 가장 근본적인 질문에 답하고 미래 기술의 방향성을 제시하는 혁신적인 연구들의 경연장이었다. 특히 최우수 논문(Outstanding Papers)으로 선정된 연구들은 생성 모델링, 체화 AI, 학습 이론, 데이터셋 구축 등 다양한 영역에서 기존의 한계를 돌파하는 성과를 보여주었다.4
3.1 최우수 논문(Outstanding Papers) 심층 분석
NeurIPS 2022의 최우수 논문들은 당시 AI 연구의 핵심적인 화두를 명확하게 보여준다. 대규모 언어 모델의 이해력을 시각 생성에 접목한 연구, 데이터의 한계를 극복하기 위한 절차적 생성 방법론, AI의 신뢰성을 위한 이론적 토대 마련, 그리고 연구 민주화를 위한 대규모 개방형 데이터셋 구축 등은 이 시기 연구의 지형도를 압축적으로 나타낸다.
Table 1: NeurIPS 2022 최우수 논문 요약
| 논문 제목 (Paper Title) | 핵심 기여 (Key Contribution) | 중요성 및 시사점 (Significance & Implications) |
|---|---|---|
| Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Imagen) | 대규모 언어 모델(T5)을 텍스트 인코더로 활용하여 텍스트-이미지 생성의 사실성과 의미 이해도를 획기적으로 향상시켰다.4 | 생성 모델의 품질이 시각 정보뿐만 아니라 언어 이해의 깊이에 크게 의존함을 입증했다. LLM이 다양한 다운스트림 작업의 핵심 구성요소로 자리매김할 가능성을 시사한다. |
| ProcTHOR: Large-Scale Embodied AI Using Procedural Generation | 절차적 생성(procedural generation)을 통해 상호작용 가능한 3D 가상 환경을 대규모로 자동 생성하는 프레임워크를 제안했다.4 | 체화 AI의 데이터 부족 문제를 해결하고, 대규모 데이터 기반 훈련을 통해 강력한 제로샷 일반화 성능을 달성할 수 있음을 보였다. AI 훈련의 패러다임을 ’모델 중심’에서 ’데이터 중심’으로 전환하는 흐름을 가속화한다. |
| Is Out-of-Distribution Detection Learnable? | 분포 외(OOD) 탐지의 학습 가능성에 대한 이론적 토대(PAC learning theory)를 제시하고, 학습 가능성의 필요조건을 밝혔다.4 | AI 모델의 안전성과 신뢰성 확보에 필수적인 OOD 탐지 문제에 대한 이론적 이해를 심화시켰다. |
| LAION-5B: An open large-scale dataset for training next generation image-text models | 58.5억 개의 이미지-텍스트 쌍으로 구성된 개방형 대규모 데이터셋을 공개하여, 대규모 다중모달 모델 연구의 민주화에 기여했다.4 | 대규모 데이터셋에 대한 접근성 문제가 연구 발전을 저해하는 상황에서, 커뮤니티 주도의 개방형 데이터셋 구축의 중요성을 보여주었다. |
| Riemannian Score-Based Generative Modelling | 생성 모델링을 리만 다양체(Riemannian manifolds)로 확장하여, 유클리드 공간에 국한되지 않는 복잡한 데이터 구조를 모델링할 수 있게 했다.4 | 기하학적 딥러닝의 발전을 촉진하고, 보다 근본적인 데이터 구조를 학습할 수 있는 새로운 길을 열었다. |
3.1.1 상세 분석 1: Imagen - 언어 이해가 시각을 창조하다
Google Research에서 발표한 Imagen은 텍스트 설명으로부터 매우 사실적인 이미지를 생성하는 확산 모델 기반의 시스템이다.12 이 연구의 가장 중요한 발견은 이미지 생성의 품질을 결정하는 핵심 요소가 시각 정보를 다루는 확산 모델 자체의 크기보다, 텍스트의 의미를 이해하는
언어 모델 인코더의 크기에 더 크게 좌우된다는 점이다.14
-
아키텍처: Imagen은 두 가지 주요 구성 요소로 이루어져 있다. 첫째는 입력된 텍스트를 깊이 있는 의미를 담은 벡터 시퀀스(임베딩)로 변환하는 고정된(frozen) T5-XXL 텍스트 인코더이다. T5-XXL은 텍스트 데이터만으로 사전 훈련된 거대 언어 모델로, 복잡하고 미묘한 언어적 뉘앙스를 포착하는 데 탁월하다. 둘째는 이 텍스트 임베딩을 조건으로 받아, 64x64 해상도의 기본 이미지를 생성하는 확산 모델과, 이를 순차적으로 256x256, 1024x1024 해상도로 높이는 두 개의 초해상도(super-resolution) 확산 모델이다.14 텍스트 인코더를 고정함으로써, 훈련 과정의 계산 효율을 높이면서도 언어 모델의 강력한 표현력을 온전히 활용할 수 있었다. 이 구조는 언어 이해와 시각 생성이라는 두 가지 전문화된 모듈의 성공적인 결합을 보여준다.
-
Dynamic Thresholding: 확산 모델에서 classifier-free guidance 가중치를 높이면 생성된 이미지가 텍스트 설명에 더 잘 부합하지만, 이미지가 부자연스럽게 강한 채도를 띠며 사실성이 저하되는 문제가 발생한다. Imagen 연구진은 이 문제를 해결하기 위해 **‘동적 임계값(dynamic thresholding)’**이라는 새로운 샘플링 기법을 제안했다.14 이는 각 노이즈 제거 단계에서 예측된 픽셀 값의 분포를 확인하고, 특정 임계값을 초과하는 극단적인 값들을 동적으로 제한(clipping)하는 방식이다. 이를 통해 이미지의 자연스러운 색감과 질감을 유지하면서도 텍스트와의 의미적 일관성을 높여, 사실성과 정합성이라는 두 마리 토끼를 모두 잡을 수 있었다.
-
Denoising Objective: 모든 확산 모델은 노이즈가 추가된 데이터로부터 원본 데이터를 복원하도록 훈련된다. Imagen에서 사용된 조건부 확산 모델의 노이즈 제거 목적 함수(denoising objective)는 다음과 같다.14
\mathbb{E}_{x,c,\epsilon,t}[w_t \Vert x_\theta(\alpha_t x + \sigma_t \epsilon, c) - x \Vert_2^2]
이 수식에서 x는 원본 이미지, c는 조건으로 주어지는 텍스트 임베딩, \epsilon은 정규 분포에서 샘플링된 노이즈, t는 노이즈 수준을 결정하는 시간 단계를 의미한다. 모델 x_\theta는 노이즈가 낀 입력 \alpha_t x + \sigma_t \epsilon으로부터 원본 이미지 x를 예측하도록 학습되며, 가중치 w_t를 통해 특정 시간 단계의 오차에 더 큰 비중을 둔다.
3.1.2 상세 분석 2: ProcTHOR - 체화 AI를 위한 무한한 데이터 엔진
체화 AI(Embodied AI)는 AI 에이전트가 가상 또는 실제 환경 내에서 상호작용하며 작업을 수행하는 분야로, 일반화 능력이 매우 중요하다. 그러나 기존 연구는 소수의 고정된 훈련 환경을 사용했기 때문에, 에이전트가 훈련 환경에 과적합되어 새로운 환경에서는 성능이 급격히 저하되는 문제를 겪었다.13 Allen Institute for AI(AI2)에서 발표한 ProcTHOR는 이 데이터 병목 현상을 해결하기 위한 혁신적인 프레임워크이다.15
-
문제 정의: 기존의 체화 AI 환경은 3D 아티스트가 수작업으로 제작하거나 실제 공간을 3D 스캔하는 방식으로 만들어졌다. 두 방식 모두 시간과 비용이 많이 들어 대규모의 다양한 환경을 구축하기 어려웠다. 이는 모델이 다양한 상황에 대처하는 능력을 학습하는 데 근본적인 한계로 작용했다.13
-
해결책: 절차적 생성(Procedural Generation): ProcTHOR는 집의 구조, 방의 종류와 연결성, 가구와 사물의 배치, 재질, 조명 등 환경을 구성하는 모든 요소를 사전에 정의된 규칙과 확률 분포에 따라 절차적으로 샘플링하여 가상 환경을 자동으로 생성한다.13 예를 들어, ’침실 2개, 욕실 1개’와 같은 상위 수준의 명세만 주어지면, 이에 맞는 수많은 평면도와 내부 구성을 무작위로 생성할 수 있다. 이 프레임워크를 이용해 10,000개의 서로 다른 가상 주택으로 구성된 ‘ProcTHOR-10K’ 데이터셋을 구축하여 그 효과를 입증했다.13
-
결과 및 시사점: ProcTHOR-10K 데이터셋에서 사전 훈련된 에이전트는 Habitat 2022, AI2-THOR Rearrangement 2022, RoboTHOR 등 6개의 주요 체화 AI 벤치마크에서, 해당 벤치마크의 훈련 데이터를 전혀 사용하지 않고도(zero-shot) 기존의 최고 성능(SOTA) 모델들을 능가하는 결과를 보였다.13 이는 알고리즘의 정교한 개선만큼이나, 혹은 그 이상으로
대규모의 다양성 높은 데이터가 AI의 일반화 성능에 결정적인 역할을 한다는 것을 명백히 보여준다. ProcTHOR와 같은 ’데이터 엔진’의 등장은 AI 연구의 패러다임이 점차 모델 중심에서 데이터 중심으로 이동하고 있음을 시사한다. LAION-5B와 같은 대규모 개방형 데이터셋의 공개 역시 이러한 흐름을 뒷받침하며, 고품질 데이터를 대규모로 생성하고 관리하는 능력이 미래 AI 기술의 핵심 경쟁력이 될 것임을 예고한다.4
3.2 주목할 만한 연구 동향
최우수 논문들 외에도 NeurIPS 2022에서는 AI 연구의 기반을 다지는 중요한 연구들이 다수 발표되었다.
-
최적화 이론의 재조명: ‘Gradient Descent: The Ultimate Optimizer’ 논문은 딥러닝의 가장 기본적인 최적화 알고리즘인 경사 하강법에 대한 새로운 시각을 제시했다. 이 연구는 SGD나 Adam과 같은 옵티마이저가 학습률(learning rate)과 같은 핵심 하이퍼파라미터를 추가적인 미분 계산 없이 자동으로 조정할 수 있는 메커니즘을 제안하여, 수동적인 하이퍼파라미터 튜닝의 부담을 줄이고 최적화 과정의 효율성과 안정성을 높일 수 있는 가능성을 열었다.18
-
모델 효율성 증대: 모델의 규모가 기하급수적으로 커짐에 따라, 효율적인 모델을 설계하고 훈련하는 기술의 중요성도 커지고 있다. ‘Beyond L1: Faster and Better Sparse Models with skglm’ 연구는 통계 및 머신러닝에서 널리 사용되는 희소(sparse) 모델을 기존 방법보다 더 빠르고 정확하게 추정하는 새로운 알고리즘을 제안했다. 이는 대규모 데이터셋에서 중요한 특징만을 선택하여 모델을 간결하게 만드는 데 기여하며, 모델의 해석 가능성과 계산 효율성을 동시에 향상시킨다.18
-
벤치마크 및 라이브러리 구축: AI 연구의 재현성과 신뢰성을 확보하기 위한 노력도 활발히 이루어졌다. 다양한 최적화 알고리즘의 성능을 여러 프로그래밍 언어와 하드웨어 환경에서 공정하게 비교하고 재현할 수 있도록 돕는 협업 프레임워크인 Benchopt, 약한 지도 학습(Weak Supervision) 기법들을 체계적으로 평가하기 위한 벤치마크인 AutoWS-Bench-101, 그리고 다양한 생성형 오토인코더 모델들을 통일된 인터페이스로 제공하는 파이썬 라이브러리 Pythae 등이 발표되었다.18 이러한 노력은 연구 커뮤니티가 보다 견고하고 신뢰할 수 있는 기반 위에서 발전해 나가는 데 필수적인 역할을 한다.
3.3 시간의 시험 상(Test of Time Award): AlexNet의 유산
NeurIPS 2022에서는 10년 전인 2012년에 발표된 ‘ImageNet Classification with Deep Convolutional Neural Networks’, 일명 AlexNet 논문이 ’시간의 시험 상(Test of Time Award)’을 수상했다.18 이 논문은 대규모 이미지 데이터셋인 ImageNet을 활용하고, 당시로서는 획기적이었던 GPU 기반 병렬 컴퓨팅을 통해 깊은 컨볼루션 신경망(CNN)을 성공적으로 훈련시켜 이미지 분류 성능을 비약적으로 향상시켰다.
AlexNet의 성공은 현대 딥러닝 시대의 개막을 알린 신호탄이었다. 이 연구가 제시한 **‘대규모 데이터 + 대규모 병렬 연산 + 깊은 신경망 아키텍처’**라는 성공 공식은 이후 10년간 AI 연구의 핵심 패러다임으로 자리 잡았다. 2022년 11월에 등장한 ChatGPT나 Imagen과 같은 최신 기술들 역시 본질적으로는 이 패러다임의 연장선상에 있다. 데이터의 규모는 ImageNet의 수백만 장에서 웹 스케일의 수십억, 수조 단위로, 연산 능력은 단일 GPU에서 수천 개의 GPU 클러스터로, 아키텍처는 CNN에서 트랜스포머로 발전했지만, 그 근본적인 철학은 변하지 않았다. AlexNet의 수상은 10년이 지난 시점에도 이 패러다임이 여전히 AI 발전을 이끄는 가장 강력한 동력임을 상기시키며, ProcTHOR나 LAION-5B와 같은 데이터 중심의 연구가 왜 중요한지를 역사적 맥락에서 다시 한번 확인시켜 준다.
4. CoRL 2022: 로봇 공학 연구의 혁신
Conference on Robot Learning (CoRL) 2022는 AI 기술, 특히 딥러닝과 강화학습이 어떻게 로봇 공학의 오랜 난제들을 해결하고 있는지를 명확하게 보여주는 장이었다. 수상 논문들은 로봇이 불확실하고 복잡한 실제 환경에서 데이터를 통해 스스로 학습하고, 추상적인 명령을 이해하며, 정교한 물리적 기술을 수행하는 능력에 있어 중요한 진전을 이루었음을 입증했다.5 특히 보상 함수 설계, 험지 보행, 언어 기반 제어라는 세 가지 핵심 주제에서 패러다임을 전환하는 연구들이 주목받았다.
Table 2: CoRL 2022 주요 수상 논문 비교
| 수상 (Award) | 논문 제목 (Paper Title) | 문제 정의 (Problem Definition) | 제안된 해결책 (Proposed Solution) | 핵심 혁신 (Key Innovation) |
|---|---|---|---|---|
| 최우수 논문 (Best Paper) | Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning | 수동적 관찰만으로는 작업 성공 여부를 판단하기 어려운 부분 관찰 가능 환경에서의 보상 함수 설계 문제.21 | 로봇이 직접 환경과 상호작용하여 작업 성공 여부를 ’평가’하는 정책(IRF)을 학습하고, 이를 보상으로 활용하여 목표 작업 정책을 훈련한다.22 | 보상 함수를 정적인 함수가 아닌, 동적인 ’상호작용 정책’으로 정의하여 학습의 패러다임을 전환했다. |
| 최우수 시스템 논문 (Best Systems Paper) | Legged Locomotion in Challenging Terrains using Egocentric Vision | 저비용 센서(단일 깊이 카메라)와 제한된 연산 능력만으로 사족보행 로봇이 계단, 장애물 등 험지를 보행하게 하는 문제.23 | 시뮬레이션에서 강화학습과 지도학습 증류를 결합한 2단계 학습을 통해 종단간(end-to-end) 제어 정책을 학습한다.23 | Elevation mapping과 같은 전통적인 파이프라인을 배제하고, 자기중심적 시각 정보와 기억(RNN)을 활용한 종단간 학습만으로 복잡한 보행 기술을 성공적으로 구현했다. |
| 특별 혁신상 (Special Innovation Award) | Do As I Can, Not As I Say: Grounding Language in Robotic Affordances | 대규모 언어 모델(LLM)의 풍부한 의미론적 지식을 로봇의 실제 물리적 능력 및 환경 제약과 연결하는 문제.25 | LLM이 제안하는 행동들의 가능성을 로봇의 사전 학습된 기술(가치 함수)로 평가하여, ‘실행 가능하고’ ‘상황에 적절한’ 행동을 선택하게 한다.27 | ‘Task-grounding’(언어 모델)과 ‘World-grounding’(가치 함수)의 결합을 통해 추상적인 언어 명령을 구체적인 로봇 행동으로 접지(grounding)시키는 독창적인 프레임워크를 제시했다. |
4.1 주요 수상 논문 분석
CoRL 2022의 수상작들은 전통적인 로봇 공학의 접근 방식, 즉 계획(planning)과 제어(control)를 명확히 분리하던 패러다임에서 벗어나, 의미론적 이해와 물리적 상호작용을 깊이 통합하는 ’체화된 추론(Embodied Reasoning)’이라는 새로운 방향성을 제시한다. 이는 단순히 모터 기술을 학습하거나 추상적인 언어를 처리하는 것을 넘어, 로봇이 물리 세계에 대한 믿음을 형성하고, 행동을 통해 가설을 검증하며, 의미론적으로 일관되면서도 물리적으로 실현 가능한 행동 계획을 수립하는 고차원적인 지능의 등장을 예고한다.
4.1.1 최우수 논문: Interactive Reward Functions (IRFs) - 로봇이 로봇을 평가하다
강화학습에서 보상 함수 설계는 가장 어렵고 중요한 문제 중 하나이다. 특히, 문이 제대로 잠겼는지, 병뚜껑이 새지 않게 닫혔는지와 같이, 외부에서 관찰되는 시각 정보만으로는 작업의 성공 여부를 명확히 판단하기 어려운 ‘부분 관찰 가능성(partially observability)’ 문제에서 이 어려움은 더욱 커진다.21 이 연구는 이러한 문제에 대한 혁신적인 해법을 제시한다.
- 개념: 기존의 ‘exemplar rewards’ 방식이 성공 상태를 담은 ’이미지’나 ’관찰 데이터’를 보상 기준으로 제공했던 것과 달리, 이 연구는 로봇이 직접 상호작용할 수 있는 **‘물리적 성공 예시(actionable physical instances)’**를 제공한다.21 예를 들어, ‘문 잠그기’ 작업을 학습시키기 위해, 로봇에게는 이미 성공적으로 잠긴 여러 개의 실제 문이 주어진다. 로봇은 이 문들을 직접 당겨보는 등의 상호작용을 통해, ’잠긴 문은 당겨도 열리지 않는다’는 물리적 속성을 학습한다. 이 과정에서 성공과 실패 상태를 구분해내는 ‘평가 정책(evaluation policy)’
\pi_R을 학습하게 된다.
- 작동 원리: 이렇게 학습된 평가 정책 \pi_R은 그 자체가 **동적인 보상 함수, 즉 ‘상호작용형 보상 함수(Interactive Reward Function, IRF)’**가 된다.22 목표 작업(예: 문 잠그기)을 수행하는 주체인 작업 정책
\pi_T가 어떤 상태를 만들어내면, 평가 정책 \pi_R이 그 상태와 상호작용하여 성공 여부를 판단하고, 그 결과를 보상 신호로 \pi_T에게 전달한다. 이는 정적인 보상 함수를 사용하는 대신, 작업의 본질을 파악하기 위해 능동적으로 환경을 탐색하고 가설을 검증하는(예: “만약 내가 이 문을 당겼을 때 열리지 않는다면, 그것은 잠긴 것이다”) 동적인 보상 메커니즘을 구축한 것이다. 이 접근법은 시뮬레이션 상의 문 잠그기, 블록 쌓기뿐만 아니라 실제 로봇을 이용한 나사 조이기 실험에서도 기존 방식보다 월등한 성능을 보이며 그 유효성을 입증했다.22
4.1.2 최우수 시스템 논문: Egocentric Vision for Legged Locomotion - 로봇의 눈으로 걷다
사족보행 로봇이 인간처럼 자연스럽게 험지를 보행하는 것은 로봇 공학의 오랜 목표이다. 전통적인 접근법은 레이저 스캐너 등으로 주변 지형의 3차원 지도를 만들고(mapping), 안전한 발 디딤 위치를 계산한 뒤(foothold planning), 그에 맞춰 다리 관절을 제어하는 복잡한 파이프라인에 의존했다. 이 연구는 이러한 분절적인 파이프라인을 과감히 버리고, 종단간(end-to-end) 학습만으로 이 문제를 해결했다.23
- 2단계 학습 과정: 이 시스템은 전적으로 시뮬레이션 환경에서 2단계에 걸쳐 학습된다.
-
1단계 (강화학습): 실제 깊이 카메라 이미지를 시뮬레이션에서 렌더링하는 것은 계산 비용이 매우 높다. 따라서, 계산이 빠른 가상의 지형 높이 정보(scandots)를 입력으로 받아, 보상을 최대화하는 방향으로 로봇의 보행 정책 \pi_1을 강화학습으로 훈련시킨다.23
-
2단계 (지도학습 증류): 1단계에서 학습된 전문가 정책 \pi_1의 행동을 ’정답’으로 간주한다. 그리고 실제 로봇에 장착된 것과 동일한 사양의 깊이 카메라 이미지를 입력으로 받아, \pi_1의 행동을 그대로 모방하도록 최종 정책 \pi_2를 지도학습으로 훈련(증류, distillation)시킨다.23
- Sim-to-Real 성공 요인: 이 시스템의 성공 비결은 전통적인 모듈(지도 작성, 지역화, 경로 계획)을 배제하고, 로봇의 **자기중심적 시각(egocentric vision)**과 고유수용성 감각(proprioception) 정보를 **순환 신경망(RNN)**에 직접 입력한 데 있다.24 RNN은 시간의 흐름에 따른 정보를 내부에 저장하는 ‘기억’ 능력을 갖는다. 덕분에 로봇은 전방 카메라에 더 이상 보이지 않는 자신의 뒷발 아래 지형의 상태를 과거의 시각 정보를 바탕으로 추론할 수 있다. 예를 들어, 계단을 오를 때 앞발이 계단을 딛고 올라선 후, 시야에서 사라진 그 계단의 위치를 기억하여 뒷발을 정확히 같은 위치에 딛는 것이 가능해진다. 이처럼 시각과 제어를 긴밀하게 통합한 종단간 학습 방식은 강력한 일반화 능력을 부여하여, 시뮬레이션에서 학습된 정책이 별도의 미세 조정 없이도 실제 로봇에서 성공적으로 작동하게 만들었다.23
4.1.3 특별 혁신상: Grounding LLMs in Robotic Affordances - 언어를 행동으로 바꾸다
ChatGPT의 등장과 함께, 대규모 언어 모델(LLM)을 로봇의 ’뇌’로 활용하려는 시도가 급증했다. LLM은 “음료수를 쏟았는데, 어떻게 해야 할까?“와 같은 추상적인 질문에 대해 “스펀지를 찾아서 닦아내세요“와 같은 상식적인 절차를 생성할 수 있다. 그러나 LLM은 로봇의 물리적 형태나 현재 환경에 대한 정보, 즉 **‘접지(grounding)’**가 부족하다. “스펀지를 찾는다“는 지시가 가능하려면, 로봇의 시야에 스펀지가 있어야 하고, 로봇 팔이 스펀지를 집을 수 있어야 한다. 이 연구는 LLM의 추상적 지식과 로봇의 물리적 현실 사이의 간극을 메우는 독창적인 방법을 제시했다.25
-
핵심 아이디어: 이 시스템의 이름은 ’Do As I Can, Not As I Say’로, “내가 말하는 대로가 아니라, 내가 할 수 있는 대로 행동하라“는 의미를 담고 있다. 이는 LLM이 제안하는 여러 가능한 행동들 중에서, 현재 로봇이 물리적으로 성공할 수 있는(affordable) 행동을 선택하도록 하는 것이 핵심이다.29
-
Task-grounding vs. World-grounding: 로봇이 다음 행동을 결정할 때, 두 가지 종류의 확률을 결합한다.27
-
Task-grounding (과업 접지): LLM이 계산하는 확률로, 현재 주어진 전체 명령(i)을 완수하기 위해 특정 행동(l_\pi)이 의미론적으로 얼마나 적절한지를 나타낸다. 즉, p(l_\pi|i)이다.
-
World-grounding (세계 접지): 로봇이 사전에 학습한 기술별 가치 함수(value function)가 계산하는 확률로, 현재 로봇의 상태(s)에서 그 행동을 시도했을 때 성공할 가능성이 얼마나 되는지를 나타낸다. 즉, p(c_\pi|s, l_\pi)이다.
- 수식: 최종적으로 로봇이 선택하는 최적의 기술 \pi^*는 이 두 확률의 곱을 최대화하는 것이다.27
\pi^* = \arg\max_{\pi \in \Pi} p(c_\pi|s, l_\pi)p(l_\pi|i)
이 수식은 LLM의 방대한 언어적, 절차적 지식과 로봇의 실제 물리적 수행 능력을 수학적으로 우아하게 결합하는 프레임워크를 제공한다. 이를 통해 로봇은 “음료수를 가져와“라는 명령을 받았을 때, LLM으로부터 “냉장고를 연다”, “음료수를 집는다”, “냉장고를 닫는다” 등의 절차를 제안받고, 각 단계에서 현재 자신의 상태(냉장고와의 거리, 팔의 위치 등)를 고려하여 가장 성공 확률이 높은 행동을 순차적으로 수행해 나갈 수 있다.
4.2 로봇 조작 및 자율주행 기술 동향
CoRL 외에도 2022년 11월 전후로 발표된 연구들은 로봇 조작 및 자율주행 분야의 중요한 기술적 흐름을 보여준다.
4.2.1 강화학습 기반 로봇 조작
로봇이 다양한 물체를 조작하는 기술을 학습하는 데 있어, 고차원의 시각 정보를 어떻게 효율적으로 처리하여 의사결정에 사용할 것인가가 핵심적인 문제이다. 2022년 11월 아시아-태평양 신호 및 정보 처리 학회(APSIPA)에서 발표된 ‘End-to-end Reinforcement Learning of Robotic Manipulation with Robust Keypoints Representation’ 연구는 이 문제에 대한 효과적인 해법을 제시했다.30
이 연구는 로봇의 카메라 이미지로부터 직접 행동을 학습하는 대신, 자기지도 학습(self-supervised learning) 방식의 오토인코더를 사용하여 이미지 내의 주요 객체(로봇 팔, 목표 물체 등)의 위치를 나타내는 소수의 **키포인트(keypoints)**를 추출한다.30 고차원의 픽셀 정보 대신, 저차원의 의미 있는 키포인트 좌표를 강화학습 에이전트의 상태(state) 표현으로 사용함으로써, 학습의 효율성과 안정성을 크게 향상시켰다. 또한, 시뮬레이션 환경에서
도메인 무작위화(domain randomization) 기법(조명, 질감, 카메라 위치 등을 무작위로 변경)을 적용하여 학습된 키포인트 추출기와 제어 정책이 실제 로봇 환경에서도 별도의 미세 조정 없이 작동(zero-shot sim-to-real transfer)하도록 만들었다. 이는 시뮬레이션 기반 로봇 학습의 실용성을 한 단계 높인 성과로 평가된다.31
4.2.2 자율주행 인식 기술
자율주행 분야에서는 고가의 라이다(LiDAR) 센서 없이, 카메라만으로 주변 환경을 3D로 인식하는 기술이 핵심적인 연구 주제로 부상하고 있다. NeurIPS 2022의 ‘Machine Learning for Autonomous Driving (ML4AD)’ 워크숍에서 발표된 Fast-BEV는 이러한 흐름을 대표하는 연구이다.33
Fast-BEV는 여러 대의 카메라로부터 입력받은 2D 이미지를 차량 위에서 내려다보는 듯한 2D 지도 형태의 조감 시점(Bird’s-Eye View, BEV) 표현으로 변환하는 기술이다.36 기존 연구들이 복잡한 트랜스포머 기반의 뷰 변환 모듈을 사용하거나, 각 픽셀의 깊이를 명시적으로 추정하는 데 많은 계산 자원을 소모했던 것과 달리, Fast-BEV는 차량 내 임베디드 칩에서의 실시간 구동을 목표로 경량화와 최적화에 집중했다. 이를 위해 (1) 사전에 계산된 룩업 테이블을 활용하는
경량화된 뷰 변환(Fast-Ray Transformation), (2) 다양한 크기의 객체를 탐지하기 위한 다중 스케일 이미지 인코더, 그리고 (3) 추론 속도를 극대화한 효율적인 BEV 인코더를 제안했다.37 또한, 이미지 공간과 BEV 공간 양쪽에서 강력한 데이터 증강을 적용하고, 이전 프레임의 정보를 활용하는 다중 프레임 특징 융합 메커니즘을 도입하여 경량화로 인한 성능 저하를 최소화했다. 그 결과, Fast-BEV는 Tesla T4와 같은 상용 GPU에서 실시간(50 FPS 이상)으로 작동하면서도 높은 정확도를 달성하여, 저비용 센서 기반 자율주행 시스템의 상용화 가능성을 한층 높였다.36
5. 결론 및 전망
5.1 2022년 11월의 핵심 성과 종합
2022년 11월은 AI 및 로봇 공학 분야의 여러 기술적 흐름이 하나의 거대한 조류로 합쳐지며 폭발적인 시너지를 창출하기 시작한 결정적인 시기였다. 본 보고서에서 분석한 주요 성과들은 다음과 같이 요약될 수 있다.
첫째, 대규모 언어 모델(LLM)이 단순한 텍스트 생성기를 넘어, 다양한 영역에서 활용될 수 있는 **범용 의미 이해 엔진(general-purpose semantic understanding engine)**으로서의 잠재력을 명확히 입증했다. ChatGPT의 대중적 성공은 LLM의 유용성을 전 세계에 각인시켰고, Imagen 연구는 LLM의 깊이 있는 언어 이해력이 고품질 시각 콘텐츠 생성의 핵심 동력임을 학술적으로 규명했다.
둘째, AI 모델의 성능이 알고리즘의 정교함뿐만 아니라, 학습에 사용되는 데이터의 규모와 다양성에 의해 결정적으로 좌우된다는 점이 재확인되었다. ProcTHOR는 절차적 생성을 통해 사실상 무한한 규모의 상호작용 가능한 데이터를 만들어냄으로써 체화 AI의 일반화 성능을 한 단계 끌어올렸고, LAION-5B는 개방형 대규모 데이터셋 구축이 커뮤니티의 연구 발전을 어떻게 촉진할 수 있는지를 보여주었다. 이는 AlexNet이 Test of Time Award를 수상하며 상기시킨 ’대규모 데이터’의 중요성과 일맥상통한다.
셋째, 로봇 공학 분야는 이러한 AI 기술의 발전을 적극적으로 흡수하며 새로운 패러다임으로의 전환을 시작했다. CoRL 2022의 수상작들은 이를 상징적으로 보여준다. ’Do As I Can, Not As I Say’는 언어 기반 제어를 통해 LLM의 추상적 지식을 물리적 세계에 접지시켰고, ’Interactive Reward Functions’는 로봇이 스스로 환경과 상호작용하며 학습 목표를 설정하는 능동적 학습의 가능성을 열었다. ’Legged Locomotion in Challenging Terrains’는 전통적인 모듈식 접근을 탈피한 종단간 학습만으로 복잡한 물리적 기술을 구현할 수 있음을 증명했다.
5.2 기술 융합과 미래 연구 방향
2022년 11월에 나타난 이러한 기술적 성과들은 향후 AI 및 로봇 공학 연구 개발의 방향에 대한 중요한 시사점을 제공한다.
-
언어와 체화의 심층 융합: LLM을 로봇의 ’뇌’로 활용하는 연구는 더욱 가속화될 것이다. 이는 단순히 인간의 명령을 따르는 수준을 넘어, 로봇이 인간과 자연스러운 대화를 통해 상호작용하고, 상식에 기반하여 상황을 추론하며, 복잡한 작업을 스스로 계획하고 수행하는 방향으로 발전할 것이다. ’SayCan’에서 제시된 task-grounding과 world-grounding의 결합은 이러한 융합의 초기 형태이며, 앞으로는 더욱 정교하고 다층적인 방식으로 언어적 추론과 물리적 실행이 통합될 것이다.
-
데이터 중심 로봇 공학의 부상: ProcTHOR가 제시한 ’데이터 엔진’의 개념은 로봇 학습의 패러다임을 근본적으로 바꿀 잠재력을 가지고 있다. 물리 법칙을 이해하고, 다양한 객체와 상호작용하는 방법을 배우며, 예측 불가능한 상황에 대처하는 능력을 기르기 위해, 시뮬레이션에서 생성된 방대한 양의 데이터셋을 활용하는 것이 표준적인 연구 방법론으로 자리 잡을 것이다. 이는 실제 로봇을 이용한 데이터 수집의 비용과 위험을 크게 줄여 연구 개발의 속도를 가속화할 것이다.
-
능동적이고 내성적인 AI의 발전: IRF 연구에서 볼 수 있듯이, 미래의 AI는 단순히 주어진 데이터를 수동적으로 학습하는 것을 넘어, 스스로의 상태나 작업의 결과를 검증하기 위해 능동적으로 환경을 탐색하고 상호작용하는 능력을 갖추게 될 것이다. 이러한 ‘내성적(introspective)’ 능력은 AI 시스템이 자신의 불확실성을 인지하고, 추가 정보가 필요할 때 질문하거나, 안전하지 않은 행동을 피하는 등, 보다 신뢰성 있고 안전한 의사결정을 내리는 데 핵심적인 역할을 할 것이다.
결론적으로, 2022년 11월은 파운데이션 모델, 데이터 중심 접근법, 체화 지능이라는 세 가지 강력한 흐름이 하나로 합쳐져 서로를 증폭시키기 시작한 기점이었다. 이 시기에 제시된 개념과 기술들은 향후 수년간 AI 및 로봇 공학 연구 개발의 지형을 형성하고, 인간의 삶과 사회를 변화시킬 기술 혁신의 방향을 결정짓는 중요한 이정표로 기록될 것이다.
6. 참고 자료
- AI boom - Wikipedia, https://en.wikipedia.org/wiki/AI_boom
- Introducing ChatGPT - OpenAI, https://openai.com/index/chatgpt/
- The ChatGPT (Generative Artificial Intelligence) Revolution Has Made Artificial Intelligence Approachable for Medical Professionals - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC10337400/
- NeurIPS 2022 Awards, https://nips.cc/virtual/2022/awards_detail
- Awards - CoRL 2022, https://corl2022.org/awards/
- US jobs market yet to be seriously disrupted by AI, finds Yale study, https://www.theguardian.com/technology/2025/oct/01/us-jobs-market-yet-to-be-seriously-disrupted-by-ai-yale-study-chatgpt
- Evaluating the Impact of AI on the Labor Market: Current State of Affairs, https://budgetlab.yale.edu/research/evaluating-impact-ai-labor-market-current-state-affairs
- ChatGPT System Design: A Technical Overview - In Plain English, https://plainenglish.io/blog/chatgpt-system-design-a-technical-overview
- Large language model - Wikipedia, https://en.wikipedia.org/wiki/Large_language_model
- The generative AI technology stack - Teradata, https://www.teradata.com/insights/ai-and-machine-learning/the-generative-ai-technology-stack
- OpenAI Tech Stack - Himalayas.app, https://himalayas.app/companies/openai/tech-stack
- Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, https://proceedings.neurips.cc/paper_files/paper/2022/hash/ec795aeadae0b7d230fa35cbaf04c041-Abstract-Conference.html
- ProcTHOR: Large-Scale Embodied AI Using Procedural Generation, https://proceedings.neurips.cc/paper_files/paper/2022/file/27c546ab1e4f1d7d638e6a8dfbad9a07-Paper-Conference.pdf
- Photorealistic Text-to-Image Diffusion Models with Deep … - NIPS, https://papers.neurips.cc/paper_files/paper/2022/file/ec795aeadae0b7d230fa35cbaf04c041-Paper-Conference.pdf
- ProcTHOR: Large-Scale Embodied AI Using Procedural Generation - ResearchGate, https://www.researchgate.net/publication/361300610_ProcTHOR_Large-Scale_Embodied_AI_Using_Procedural_Generation
- [2206.06994] ProcTHOR: Large-Scale Embodied AI Using Procedural Generation - ar5iv, https://ar5iv.labs.arxiv.org/html/2206.06994
- ProcTHOR, https://procthor.allenai.org/
- Top 10 papers we discovered at NeurIPS 2022 - BBVA AI Factory, https://www.bbvaaifactory.com/the-top-10-papers-we-discovered-at-neurips-2022/
- NeurIPS 2022 Papers, https://neurips.cc/virtual/2022/papers.html
- CORL 2022 – Dec 14-18, 2022 – Auckland, NZ, https://corl2022.org/
- Training Robots to Evaluate Robots: Example-Based Interactive …, https://proceedings.mlr.press/v205/huang23a/huang23a.pdf
- LIRF - Google Sites, https://sites.google.com/view/lirf-corl-2022/
- Legged Locomotion in Challenging Terrain using Egocentric Vision, https://vision-locomotion.github.io/
- Legged Locomotion in Challenging Terrains using Egocentric Vision, https://proceedings.mlr.press/v205/agarwal23a/agarwal23a.pdf
- Do As I Can, Not As I Say: Grounding Language in Robotic Affordances - Google Research, https://research.google/pubs/do-as-i-can-not-as-i-say-grounding-language-in-robotic-affordances/
- Do As I Can, Not As I Say: Grounding Language in Robotic Affordances - ResearchGate, https://www.researchgate.net/publication/359728557_Do_As_I_Can_Not_As_I_Say_Grounding_Language_in_Robotic_Affordances
- Do As I Can, Not As I Say: Grounding Language in Robotic …, https://proceedings.mlr.press/v205/ichter23a/ichter23a.pdf
- Legged Locomotion in Challenging Terrains using Egocentric Vision - ResearchGate, https://www.researchgate.net/publication/365373091_Legged_Locomotion_in_Challenging_Terrains_using_Egocentric_Vision
- SayCan: Grounding Language in Robotic Affordances, https://say-can.github.io/
- End-to-end Reinforcement Learning of Robotic … - APSIPA, http://www.apsipa.org/proceedings/2022/APSIPA%202022/WedAM1-3/1570818348.pdf
- End-to-end Reinforcement Learning of Robotic Manipulation with Robust Keypoints Representation - ResearchGate, https://www.researchgate.net/publication/358603484_End-to-end_Reinforcement_Learning_of_Robotic_Manipulation_with_Robust_Keypoints_Representation
- End-to-end Reinforcement Learning of Robotic Manipulation with Robust Keypoints Representation - A*STAR OAR, https://oar.a-star.edu.sg/public/communities-collections/articles/18880
- NeurIPS 2022 Workshop - Machine Learning for Autonomous Driving, https://ml4ad.github.io/2022/
- Fast-BEV: Towards Real-time On-vehicle Bird’s-Eye View Perception - X-MOL, https://www.x-mol.com/paper/1616580935453589504?adv
- [2301.07870] Fast-BEV: Towards Real-time On-vehicle Bird’s-Eye View Perception - arXiv, https://arxiv.org/abs/2301.07870
- Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline - PubMed, https://pubmed.ncbi.nlm.nih.gov/38875097/
- Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline - arXiv, https://arxiv.org/html/2301.12511v2
- Fast-BEV: A Fast and Strong Bird’s-Eye View Perception … - arXiv, https://arxiv.org/pdf/2301.12511